<!DOCTYPE HTML>
<html>

<head>
	<link rel="bookmark"  type="image/x-icon"  href="/img/logo.jpg"/>
	<link rel="shortcut icon" href="/img/logo.jpg">
	
			    <title>
    北望你的安
    </title>
    <meta charset="utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1, user-scalable=no" />
    <link rel="stylesheet" href="/css/mic_main.css" />
    <link rel="stylesheet" href="/css/dropdownMenu.css" />
    <meta name="keywords" content="北望你的安" />
    
    	<script async src="//busuanzi.ibruce.info/busuanzi/2.3/busuanzi.pure.mini.js"></script>
	 
    <noscript>
        <link rel="stylesheet" href="/css/noscript.css" />
    </noscript>
    <style type="text/css">
        body:before {
          content: ' ';
          position: fixed;
          top: 0;
          background: url('/img/bg.jpg') center 0 no-repeat;
          right: 0;
          bottom: 0;
          left: 0;
          background-size: cover; 
        }
    </style>

			    
  


    <script src="/js/jquery.min.js"></script>
    <script src="/js/jquery.scrollex.min.js"></script>
    <script src="/js/jquery.scrolly.min.js"></script>
    <script src="/js/skel.min.js"></script>
    <script src="/js/util.js"></script>
    <script src="/js/main.js"></script>
	
</head>
    
		
<!-- Layouts -->



<!--  代码渲染  -->
<link rel="stylesheet" href="/css/prism_coy.css" />
<link rel="stylesheet" href="/css/typo.css" />
<!-- 文章页 -->
<body class="is-loading">
    <!-- Wrapper 外包 s-->
    <div id="wrapper" class="fade-in">
        <!-- Intro 头部显示 s -->
        <!-- Intro 头部显示 e -->
        <!-- Header 头部logo start -->
        <header id="header">
    <a href="/" class="logo">Krystalan</a>
</header>
        <!-- Nav 导航条 start -->
        <nav id="nav" class="special" >
            <ul class="menu links" >
			<!-- Homepage  主页  --> 
			<li >
	            <a href="/" rel="nofollow">主页</a>
	        </li>
			<!-- categories_name  分类   --> 
	        
	        <li class="active">
	            <a href="#s1">分类</a>
	                    <ul class="submenu">
	                        <li>
	                        <a class="category-link" href="/categories/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/">强化学习</a></li><li><a class="category-link" href="/categories/%E6%95%B0%E5%AD%A6/">数学</a></li><li><a class="category-link" href="/categories/%E7%AE%97%E6%B3%95/">算法</a></li><li><a class="category-link" href="/categories/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86/">自然语言处理</a></li><li><a class="category-link" href="/categories/%E9%9A%8F%E7%AC%94/">随笔</a>
	                    </ul>
	        </li>
	        
	        <!-- archives  归档   --> 
	        
	        
		        <!-- Pages 自定义   -->
		        
		        <li>
		            <a href="/tags/" title="标签">
		                标签
		            </a>
		        </li>
		        
		        <li>
		            <a href="/gallery/" title="相册">
		                相册
		            </a>
		        </li>
		        


            </ul>
            <!-- icons 图标   -->
			<ul class="icons">
                    
                    <li>
                        <a title="github" href="https://github.com/krystalan" target="_blank" rel="noopener">
                            <i class="icon fa fa-github"></i>
                        </a>
                    </li>
                    
                    <li>
                        <a title="500px" href="https://www.zhihu.com/people/krystalzhu-an" target="_blank" rel="noopener">
                            <i class="icon fa fa-500px"></i>
                        </a>
                    </li>
                    
			</ul>
</nav>

        <div id="main" >
            <div class ="post_page_title_img" style="height: 25rem;background-image: url(/img/1.jpg);background-position: center; background-repeat:no-repeat; background-size:cover;-moz-background-size:cover;overflow:hidden;" >
                <a href="#" style="padding: 4rem 4rem 2rem 4rem ;"><h2 >文本分类的一些探索</h2></a>
            </div>
            <!-- Post -->
            <div class="typo" style="padding: 3rem;">
                <h1 id="1-CNN文本分类（句级分类）"><a href="#1-CNN文本分类（句级分类）" class="headerlink" title="1.CNN文本分类（句级分类）"></a>1.CNN文本分类（句级分类）</h1><p>CNN像是一个超级N-gram模型，考虑了局部的统计信息，在文本分类任务上的效果比较好，例如TextCNN；也经常用于提取字符级的文本特征。这一节说的就是TextCNN，主要思路如下：<br><img src="/images/TC/1.jpg" alt="TextCNN"><br>卷积+池化+全连接<br>具体的卷积核设置如下：<br><img src="/images/TC/2.jpg" alt="TextCNN"><br>可以看到这里图中卷积核分别选用了2，3，4。并且池化层只保留了最大的一个值。<br>实际实战中的卷积核则用的是3，4，5（没有用2）。dropout 0.5，L2正则，batch_size = 50。</p>
<p>参考资料：<br><u><a href="https://mp.weixin.qq.com/s?__biz=MzIxMzkwNjM2NQ==&mid=2247484028&idx=1&sn=f3b0eee66c60100a097a169c05ce8181&scene=19&token=544241696&lang=zh_CN#wechat_redirect" target="_blank" rel="noopener">《手把手带你CNN文本分类(附代码)》</a></u><br><u><a href="https://mp.weixin.qq.com/s?__biz=MzIzMzYwNzY2NQ==&mid=2247485038&idx=1&sn=1fecae47dee80d3c0c20e3c1c60dcfc4&chksm=e8825ef0dff5d7e6bf7a81761104c848b7fb8790545fec87ef79ea75497d92812964fc87a6b4&mpshare=1&scene=24&srcid=&sharer_sharetime=1578273692490&sharer_shareid=6c36f30e99679af7a7cfe0098d5e5b1d&ascene=14&devicetype=iOS12.1.2&version=17000a2d&nettype=WIFI&abtest_cookie=AAACAA%3D%3D&lang=zh_CN&fontScale=100&exportkey=A5UrAh6%2FJ1JpdCNqgfvizy4%3D&pass_ticket=FzPkHKx5DjOsmGIrmgrX2iRI3GQxrBkHfKfgX%2FBWOZGuoFS1shCdY3skuH0rSOV5&wx_header=1" target="_blank" rel="noopener">《TextCNN的个人理解》</a></u></p>
<h1 id="2-fasttext文本分类（句级分类）"><a href="#2-fasttext文本分类（句级分类）" class="headerlink" title="2.fasttext文本分类（句级分类）"></a>2.fasttext文本分类（句级分类）</h1><p><img src="/images/TC/3.jpg" alt="fasttext"><br>x1到xN是一句话的n-gram，例如当n=3时，apple的trigram就是“&lt;ap”、“app”、“ppl”、“ple”、“le&gt;”，那么就可以用这五个trigram的向量来表示apple的向量（在fasttext中叠加平均）。  </p>
<p>这样对一些低频词十分友好，因为它们的n-gram可以和其他词共享，并且还能够解决OOV问题。  </p>
<p>参考资料：<br><u><a href="https://mp.weixin.qq.com/s?__biz=MzIxMzkwNjM2NQ==&mid=2247484075&idx=2&sn=a1280a4d661848d7d8f9a054c0c4e5b9&scene=19&token=544241696&lang=zh_CN#wechat_redirect" target="_blank" rel="noopener">《手把手带你fastText文本分类(附代码)》</a></u><br><u><a href="https://zhuanlan.zhihu.com/p/32965521" target="_blank" rel="noopener">《fastText原理及实践》</a></u></p>
<h1 id="3-HAN文本分类（文档级分类）"><a href="#3-HAN文本分类（文档级分类）" class="headerlink" title="3.HAN文本分类（文档级分类）"></a>3.HAN文本分类（文档级分类）</h1><blockquote>
<p>该算法提出的动机是考虑到在一个句子中，不同的单词对于决定这个句子的含义起着不同的作用；然后在一篇文章中，不同的句子又对于该文档的分类起着不同的作用。所以这篇层次Attention模型分别在单词层次和句子层次添加了一个Attention机制。同时通过Attention的权值向量的权值我们可以看出究竟哪些句子以及哪些单词对文档分类起着更重要的作用。</p>
</blockquote>
<p><img src="/images/TC/4.jpg" alt="HAN">  </p>
<p>参考资料：<br><u><a href="https://mp.weixin.qq.com/s?__biz=MzIxMzkwNjM2NQ==&mid=2247484260&idx=1&sn=68d9ccd65a60c31b853dc2882105773e&scene=19&token=544241696&lang=zh_CN#wechat_redirect" target="_blank" rel="noopener">《手把手带你HAN文本分类(附代码)》</a></u><br><u><a href="https://www.cc.gatech.edu/~dyang888/docs/naacl16.pdf" target="_blank" rel="noopener">Hierarchical Attention Networks for Document Classification</a></u><br><u><a href="https://zhuanlan.zhihu.com/p/57126364" target="_blank" rel="noopener">《文档分类之HAN》</a></u></p>
<h1 id="4-BERT文本分类"><a href="#4-BERT文本分类" class="headerlink" title="4.BERT文本分类"></a>4.BERT文本分类</h1><h2 id="4-1-BERT源码解析"><a href="#4-1-BERT源码解析" class="headerlink" title="4.1 BERT源码解析"></a>4.1 BERT源码解析</h2><p>这里推荐三篇源码分析的文章<br><u><a href="https://zhuanlan.zhihu.com/p/69106080" target="_blank" rel="noopener">BERT源码分析PART I</a></u><br><u><a href="https://zhuanlan.zhihu.com/p/70230267" target="_blank" rel="noopener">BERT源码分析PART II</a></u><br><u><a href="https://zhuanlan.zhihu.com/p/71406864" target="_blank" rel="noopener">BERT源码分析PART III</a></u>     </p>
<h2 id="4-2-相关代码"><a href="#4-2-相关代码" class="headerlink" title="4.2 相关代码"></a>4.2 相关代码</h2><p>这里主要推荐一个repo：<a href="https://github.com/songyingxin/Bert-TextClassification" target="_blank" rel="noopener">https://github.com/songyingxin/Bert-TextClassification</a><br>里面探索了如何提升BERT在文本分类任务上的表现，对比了BERT+CNN、BERT+LSTM、BERT+HAN、BERT+DPCNN等等。</p>
<h1 id="5-其余"><a href="#5-其余" class="headerlink" title="5.其余"></a>5.其余</h1><h2 id="5-1-RNN文本分类"><a href="#5-1-RNN文本分类" class="headerlink" title="5.1 RNN文本分类"></a>5.1 RNN文本分类</h2><p>参考资料：<u><a href="https://mp.weixin.qq.com/s?__biz=MzIxMzkwNjM2NQ==&mid=2247484040&idx=1&sn=b85f2183c942ede4181c3d89e625bc50&scene=19&token=544241696&lang=zh_CN#wechat_redirect" target="_blank" rel="noopener">《手把手带你RNN文本分类(附代码)》</a></u></p>
<h2 id="5-2-RCNN文本分类"><a href="#5-2-RCNN文本分类" class="headerlink" title="5.2 RCNN文本分类"></a>5.2 RCNN文本分类</h2><p>参考资料：<u><a href="https://mp.weixin.qq.com/s?__biz=MzIxMzkwNjM2NQ==&mid=2247484260&idx=3&sn=e48ffb63e24b82e9c3aac6ed011dcd53&scene=19&token=544241696&lang=zh_CN#wechat_redirect" target="_blank" rel="noopener">《手把手带你RCNN文本分类(附代码)》</a></u>  </p>
<h2 id="5-3-基于KG的文本分类"><a href="#5-3-基于KG的文本分类" class="headerlink" title="5.3 基于KG的文本分类"></a>5.3 基于KG的文本分类</h2><p>参考资料：<u><a href="https://zhuanlan.zhihu.com/p/112212737" target="_blank" rel="noopener">《基于知识图谱的文本分类》</a></u></p>

            </div>

            <!-- Post Comments -->
            

        </div>
        <!-- Copyright 版权 start -->
                <div id="copyright">
            <ul>
                <li>&copy;2020 北望你的安. 版权所有</li>
            </ul>
            
                <span id="busuanzi_container_site_pv">本站总访问量<span id="busuanzi_value_site_pv"></span>次，</span>
				<span id="busuanzi_container_site_uv"> 访客数 <span id="busuanzi_value_site_uv"></span> 人. </span>
			
			<br>
			<span>友情链接：<a href='http://www.demilab.cn' target='_blank'>DEMI实验室</a>&nbsp;&nbsp;&nbsp;<a href='http://zd11024.cn/' target='_blank'>ZD</a></span>
        </div>
    </div>
</body>



 	
</html>
